Faced with the threat of identity leakage during voice data publishing, users are engaged in a privacy-utility dilemma when enjoying convenient voice services. Existing studies employ direct modification or text-based re-synthesis to de-identify users' voices, but resulting in inconsistent audibility in the presence of human participants. In this paper, we propose a voice de-identification system, which uses adversarial examples to balance the privacy and utility of voice services. Instead of typical additive examples inducing perceivable distortions, we design a novel convolutional adversarial example that modulates perturbations into real-world room impulse responses. Benefit from this, our system could preserve user identity from exposure by Automatic Speaker Identification (ASI) while remaining the voice perceptual quality for non-intrusive de-identification. Moreover, our system learns a compact speaker distribution through a conditional variational auto-encoder to sample diverse target embeddings on demand. Combining diverse target generation and input-specific perturbation construction, our system enables any-to-any identify transformation for adaptive de-identification. Experimental results show that our system could achieve 98% and 79% successful de-identification on mainstream ASIs and commercial systems with an objective Mel cepstral distortion of 4.31dB and a subjective mean opinion score of 4.48.
translated by 谷歌翻译
在这份技术报告中,我们简要介绍了ACM-MM 2022中的PIC化妆视频接地(MTVG)挑战的团队“ PKU-WICT-MIPL”的解决方案。给定未修饰的化妆视频和步骤查询,MTVG Aims是要在视频中定位目标化妆步骤的时间瞬间。为了解决这项任务,我们提出了一个短语关系挖掘框架,以利用与细粒度和整个句子相关的时间定位关系。此外,我们建议限制不同步骤句子查询的本地化结果,以免通过动态编程算法相互重叠。实验结果证明了我们方法的有效性。我们的最终提交在排行榜上排名第二,从第一个方面只有0.55 \%的差距。
translated by 谷歌翻译
风险的准确器官(OAR)分割对于减少治疗后并发症的放射治疗至关重要。达人指南推荐头部和颈部(H&N)区域的一套超过40桨的桨,然而,由于这项任务的可预测的禁止劳动力成本,大多数机构通过划定较小的桨子和忽视的少数,选择了大量简化的协议与其他桨相关的剂量分布。在这项工作中,我们提出了一种使用深度学习的新颖,自动化和高效的分层OAR分段(SOARS)系统,精确地描绘了一套全面的42 H&N OAR。 SOARS将42桨分层进入锚,中级和小型和硬质子类别,通过神经结构搜索(NAS)原则,专门为每个类别提供神经网络架构。我们在内在机构中使用176名培训患者建立了SOAR模型,并在六个不同的机构中独立评估了1327名外部患者。对于每个机构评估,它始终如一地表现出其他最先进的方法至少3-5%的骰子得分(在其他度量的相对误差减少36%)。更重要的是,广泛的多用户研究明显证明,98%的SOARE预测只需要非常轻微或没有直接临床验收的修订(节省90%的辐射脑神经工作负载),并且它们的分割和剂量准确度在于或小于帧 - 用户的变化。这些调查结果证实了H&N癌症放射疗法工作流OAR描绘过程的强烈临床适用性,提高了效率,全面性和质量。
translated by 谷歌翻译
与静态图像不同,视频包含其他时间和空间信息,以进行更好的对象检测。但是,获得大量带有有界框注释的视频是昂贵的,这些视频是有监督的深度学习所需的。尽管人类只能通过仅观看几个视频剪辑来轻松学习识别新对象,但深度学习通常会遭受过度拟合。这导致了一个重要的问题:如何仅从几个标记的视频剪辑中有效地学习视频对象探测器?在本文中,我们研究了视频对象检测几乎没有学习的新问题。我们首先定义了几个弹出设置,并创建一个新的基准数据集,以用于从广泛使用的Imagenet VID数据集中得出的几个弹片视频对象检测。我们采用转移学习框架来有效地训练视频对象探测器在大量基类对象和一些新颖级别对象的视频剪辑上。通过在我们设计的弱和强基数据集中分析该框架(关节和冻结)下两种方法的结果,我们揭示了不足和过度拟合问题。一种简单但有效的方法,称为融化,是自然开发的,可以权衡这两个问题并验证我们的分析。在我们提议的基准数据集上进行不同方案的广泛实验证明了我们在这个新的几弹视频对象检测问题中新颖分析的有效性。
translated by 谷歌翻译
Variational autoencoders (VAEs) are powerful tools for learning latent representations of data used in a wide range of applications. In practice, VAEs usually require multiple training rounds to choose the amount of information the latent variable should retain. This trade-off between the reconstruction error (distortion) and the KL divergence (rate) is typically parameterized by a hyperparameter $\beta$. In this paper, we introduce Multi-Rate VAE (MR-VAE), a computationally efficient framework for learning optimal parameters corresponding to various $\beta$ in a single training run. The key idea is to explicitly formulate a response function that maps $\beta$ to the optimal parameters using hypernetworks. MR-VAEs construct a compact response hypernetwork where the pre-activations are conditionally gated based on $\beta$. We justify the proposed architecture by analyzing linear VAEs and showing that it can represent response functions exactly for linear VAEs. With the learned hypernetwork, MR-VAEs can construct the rate-distortion curve without additional training and can be deployed with significantly less hyperparameter tuning. Empirically, our approach is competitive and often exceeds the performance of multiple $\beta$-VAEs training with minimal computation and memory overheads.
translated by 谷歌翻译
在许多工程应用中,例如雷达/声纳/超声成像等许多工程应用中,稀疏多通道盲卷(S-MBD)的问题经常出现。为了降低其计算和实施成本,我们提出了一种压缩方法,该方法可以及时从更少的测量值中进行盲目恢复。提出的压缩通过过滤器随后进行亚采样来测量信号,从而大大降低了实施成本。我们得出理论保证,可从压缩测量中识别和回收稀疏过滤器。我们的结果允许设计广泛的压缩过滤器。然后,我们提出了一个由数据驱动的展开的学习框架,以学习压缩过滤器并解决S-MBD问题。编码器是一个经常性的推理网络,该网络将压缩测量结果映射到稀疏过滤器的估计值中。我们证明,与基于优化的方法相比,我们展开的学习方法对源形状的选择更为强大,并且具有更好的恢复性能。最后,在具有有限数据的应用程序(少数图)的应用中,我们强调了与传统深度学习相比,展开学习的卓越概括能力。
translated by 谷歌翻译
培训低级的深层神经网络,即使用分解层,特别是社区感兴趣的:它在记忆消耗和训练时间方面提供了对未分离培训的效率。先前的工作集中在预训练的网络的低级近似值和低级空间中的培训中,并提供了其他目标,为所选实践提供了各种临时解释。我们分析了在实践中运作良好的技术,并通过对诸如GPT2之类的模型进行广泛的消融,我们提供了证据表明该领域的共同信念,这暗示着令人兴奋的研究机会仍然需要回答。
translated by 谷歌翻译
重建准确且一致的大规模激光点云图对机器人应用至关重要。现有的解决方案姿势图优化虽然是及时的,但并未直接优化映射一致性。最近提出了LIDAR捆绑调整(BA)来解决此问题;但是,它在大规模地图上太耗时了。为了减轻此问题,本文介绍了适合大规模地图的全球一致和有效的映射方法。我们提出的工作包括自下而上的分层BA和自上而下的姿势图优化,结合了这两种方法的优势。通过层次设计,我们解决了比原始BA小得多的Hessian矩阵大小的多个BA问题。借助姿势图优化,我们可以平稳有效地更新LiDAR姿势。我们提出的方法的有效性和鲁棒性已在多个空间和及时的大规模公共旋转雷达数据集上得到验证,即Kitti,Mulran和Newer College,以及在结构化和非结构化场景下进行自我收集的固态LIDAR数据集。通过适当的设置,我们证明我们的工作可以生成全球一致的地图,约有序列时间的12%。
translated by 谷歌翻译
束调整(BA)是指同时确定传感器姿势和场景几何形状的问题,这是机器人视觉中的一个基本问题。本文为LIDAR传感器提供了一种有效且一致的捆绑捆绑调整方法。该方法采用边缘和平面特征来表示场景几何形状,并直接最大程度地减少从每个原始点到各自几何特征的天然欧几里得距离。该公式的一个不错的属性是几何特征可以在分析上解决,从而大大降低了数值优化的维度。为了更有效地表示和解决最终的优化问题,本文提出了一个新颖的概念{\ it point clusters},该概念编码了通过一组紧凑的参数集与同一特征相关联的所有原始点,{\ it点群集坐标} 。我们根据点簇坐标得出BA优化的封闭形式的衍生物,并显示其理论属性,例如零空间和稀疏性。基于这些理论结果,本文开发了有效的二阶BA求解器。除了估计LiDAR姿势外,求解器还利用二阶信息来估计测量噪声引起的姿势不确定性,从而导致对LIDAR姿势的一致估计。此外,由于使用点群集的使用,开发的求解器从根本上避免了在优化的所有步骤中列出每个原始点(由于数量大量而非常耗时):成本评估,衍生品评估和不确定性评估。我们的方法的实施是开源的,以使机器人界及其他地区受益。
translated by 谷歌翻译
激光射道是激光雷达同时定位和映射(SLAM)的重要部分之一。但是,现有的LiDAR探光法倾向于将新的扫描与以前的固定置扫描相匹配,并逐渐累积错误。此外,作为一种有效的关节优化机制,由于大规模全球地标的密集计算,捆绑捆绑调整(BA)不能直接引入实时探光仪。因此,这封信设计了一种新策略,称为LINDAR SLAM中的捆绑调节探针仪(LMBAO)的具有里程碑意义的地图,以解决这些问题。首先,通过主动地标维护策略进一步开发了基于BA的进程法,以进行更准确的本地注册并避免累积错误。具体来说,本文将整个稳定地标在地图上保存,而不仅仅是在滑动窗口中的特征点,并根据其主动等级删除地标。接下来,减小滑动窗口长度,并执行边缘化以保留窗口外的扫描,但对应于地图上的活动地标,从而大大简化了计算并改善了实时属性。此外,在三个具有挑战性的数据集上进行的实验表明,我们的算法在户外驾驶中实现了实时性能,并且超过了最先进的激光雷达大满贯算法,包括乐高乐园和VLOM。
translated by 谷歌翻译